弱监督建模技术在蚂蚁风控场景中的探索与应用
导读 今天分享的主题是弱监督机器学习在蚂蚁的一些业务场景中的应用。
今天的介绍会围绕下面四点展开:1. 弱监督学习简介
2. 样本匮乏下的建模
3. 标签存噪下的建模
4. 应用场景简介
分享嘉宾|张雅淋 蚂蚁集团 算法专家
编辑整理|薛敏
内容校对|李瑶
出品社区|DataFun
弱监督学习简介
1. 弱监督学习简介
不完全监督(Incomplete Supervision):典型情况是有少量有标签样本,并有大量的样本是没有标签的。文章中给出的两种典型的研究问题分别是半监督学习和主动学习。最大的痛点就是标签匮乏。
不准确监督(Inaccurate Supervision):典型情况是依然有 X、Y 的数据组,但其中的 Y 不够准确。比如基于规则来打标,虽然有标签,但是标签存在不可忽略的噪声。如果不对这个问题做充分考虑的话,模型会被污染。所以需要一定的技术从这样一个相对不整洁的数据里去获得一个相对鲁棒的模型。
不精确监督(Inexact Supervision):这种情况在周老师的文章中给出了一类非常典型的研究问题,叫做多示例学习。简单而言,X 和 Y 不再是一对一的数据组,而是多对一,标签是对这一组样本的刻画,这属于标签粒度不够精确的一类学习范式。
2. 蚂蚁场景中的弱监督问题
第一种情况:比如业务场景中需要基于风险进行处置操作,那么我们往往是从更高风险的用户开始,并阶段化地推进。当我们做了一定的操作后,业务会进一步地往前走,这时可能需要再对风险比之前稍低但仍然较高的客群进行建模。再举个例子,我们有某些场景下老客的历史数据,希望基于这些历史数据对新户或者另一个目标客群建模。当遇到这种问题时,我们探索了利用跨场景的数据进行建模的一些方案。
第二种情况:某些业务场景中很难获得准确标记的样本,或者获得相对准确的标签所需的成本较高,比如反欺诈或者反套现场景。但我们其实有很多业务经验、专家经验,包括已经线上成型的规则或者模型,也可以给出一个参考标签。这个标签虽然不够准确,但也是有信息量的,可以尝试利用这些信息来帮助我们去解决所面临的标签信息不够健全、样本信息不够健全等痛点。
样本匮乏下的建模
1. 跨场景因果效应估计简介
情况 1:目标场景不存在有标记数据
情况 2:目标场景存在少量有标记数据
2. 情况 1:跨目标场景不存在有标记数据
3. 情况 2:目标场景存在少量有标记数据
标签存噪下的建模
应用场景简介
分享嘉宾
INTRODUCTION
张雅淋
蚂蚁集团
算法专家
张雅淋,硕士毕业于南京大学,现蚂蚁集团平台技术事业群算法专家。研究方向聚焦于弱监督机器学习、因果机器学习以及自动机器学习等领域,在 ICML、NeurIPS、ICDE、CIKM 等国际会议发表论文20余篇;熟悉信贷风控与营销的业务场景,并借助相关技术解决业务中的痛点问题。
往期推荐
京东RaftKeeper2.1发布,让CK告别ZooKeeper!
Apache SeaTunnel——OLAP 引擎的数据动脉
DataFunCon北京站精彩回顾|附PPT 下载方式
数据在零售供应链领域的应用
在交叉小径的花园随机漫步
StarRocks 数据湖查询和迁移实践
基于大模型的群体智能解决方案
阿里妈妈获 NeurIPS 2024 比赛主办权,全球参赛选手报名启动!
RAG 标准和腾讯云 ES 的技术实践
点个在看你最好看
SPRING HAS ARRIVED